Task-oriented dialogue (TOD) systems are mainly based on the slot-filling-based TOD (SF-TOD) framework, in which dialogues are broken down into smaller, controllable units (i.e., slots) to fulfill a specific task. A series of approaches based on this framework achieved remarkable success on various TOD benchmarks. However, we argue that the current TOD benchmarks are limited to surrogate real-world scenarios and that the current TOD models are still a long way from unraveling the scenarios. In this position paper, we first identify current status and limitations of SF-TOD systems. After that, we explore the WebTOD framework, the alternative direction for building a scalable TOD system when a web/mobile interface is available. In WebTOD, the dialogue system learns how to understand the web/mobile interface that the human agent interacts with, powered by a large-scale language model.
translated by 谷歌翻译
GPT-3显示了培训的大规模语言模型(LMS)的卓越情调学习能力,培训数十亿规模数据。在这里,我们解决了GPT-3纸张报告的一些剩余问题,例如非英语LM,不同大小模型的性能,以及最近引入的迅速优化对上下文学习的效果。为实现这一目标,我们介绍了HyperClova,一个韩国VPT-3的韩国变体训练在一个以韩国为中心的560b标准的令牌。通过我们的韩国特定标记化,HyperClova与我们的培训配置增强,显示了韩国各种下游任务的最先进的上下游零射击和几秒钟学习表演。此外,我们展示了基于及时的学习的性能优势,并演示如何集成到迅速的工程管道中。然后,我们讨论了通过引入Hyperclova Studio,互动提示工程界面向ML的非专家提供AI原型设计能力来实现No Code AI范例的可能性。最后,我们展示了我们具有三个成功的内部应用程序的方法的潜力。
translated by 谷歌翻译
Teleperation已成为全自动系统,以实现人类机器人的人体水平能力的替代解决方案。具体而言,全身控制的远程运行是指挥类人动物的有前途的无提手术策略,但需要更多的身体和心理努力。为了减轻这一限制,研究人员提出了共享控制方法,结合了机器人决策,以帮助人类完成低级任务,从而进一步减少了运营工作。然而,尚未探索用于全身级别的人型类人形端粒体的共享控制方法。在这项工作中,我们研究了全身反馈如何影响不同环境中不同共享控制方法的性能。提出了时间衍生的Sigmoid功能(TDSF),以产生障碍物的更直观的力反馈。进行了全面的人类实验,结果得出的结论是,力反馈增强了在不熟悉的环境中的全身端粒化表现,但可以在熟悉的环境中降低性能。通过触觉传达机器人的意图显示出进一步的改进,因为操作员可以将力反馈用于短途计划和视觉反馈进行长距离计划。
translated by 谷歌翻译
深度神经网络(DNN)的训练过程通常是用阶段进行管道的,用于在CPU上进行数据制备,然后对GPU等加速器进行梯度计算。在理想的管道中,端到端训练吞吐量最终受到加速器的吞吐量的限制,而不是数据准备。过去,DNN训练管道通过使用使用轻巧,有损的图像格式(如JPEG)编码的数据集实现了近乎最佳的吞吐量。但是,随着高分辨率,无损编码的数据集变得越来越流行,对于需要高精度的应用程序,由于CPU上的低通量图像解码,在数据准备阶段出现了性能问题。因此,我们提出了L3,这是一种用于高分辨率,高通量DNN训练的定制轻巧,无损的图像格式。 L3的解码过程在加速器上有效平行,从而最大程度地减少了在DNN培训期间进行数据制备的CPU干预。 L3比最流行的无损图像格式PNG获得了9.29倍的数据准备吞吐量,用于NVIDIA A100 GPU上的CityScapes数据集,该数据集可导致1.71倍更高的端到端训练吞吐量。与JPEG和WebP相比,两种流行的有损图像格式,L3分别以同等的度量性能为Imagenet提供高达1.77倍和2.87倍的端到端训练吞吐量。
translated by 谷歌翻译
我们提出了一种用于语义分割的新型无监督域适应方法,该方法将训练的模型概括为源图像和相应的地面真相标签到目标域。域自适应语义分割的关键是学习域,不变和判别特征,而无需目标地面真相标签。为此,我们提出了一个双向像素 - 型对比型学习框架,该框架可最大程度地减少同一对象类特征的类内变化,同时无论域,无论域如何,都可以最大程度地提高不同阶层的阶层变化。具体而言,我们的框架将像素级特征与目标和源图像中同一对象类的原型保持一致(即分别为正面对),将它们设置为不同的类别(即负对),并执行对齐和分离在源图像中具有像素级特征的另一个方向的过程,目标图像中的原型。跨域匹配鼓励域不变特征表示,而双向像素 - 型对应对应关系汇总了同一对象类的特征,提供了歧视性特征。为了建立对比度学习的训练对,我们建议使用非参数标签转移(即跨不同域的像素 - 型对应关系,就可以生成目标图像的动态伪标签。我们还提出了一种校准方法,以补偿训练过程中逐渐补偿原型的阶级域偏差。
translated by 谷歌翻译
我们解决了人搜索的任务,即从一组原始场景图像中进行本地化和重新识别查询人员。最近的方法通常是基于Oimnet(在人搜索上的先驱工作)建立的,该作品学习了执行检测和人重新识别(REID)任务的联合人物代表。为了获得表示形式,它们从行人提案中提取特征,然后将其投射到具有L2归一化的单位超晶体上。这些方法还结合了所有积极的建议,这些建议与地面真理充分重叠,同样可以学习REID的人代表。我们发现1)L2归一化而不考虑特征分布会退化人的判别能力,而2)正面建议通常也描绘了背景混乱和人的重叠,这可能会将嘈杂的特征编码为人的表示。在本文中,我们介绍了解决上述局限性的Oimnet ++。为此,我们引入了一个新颖的归一化层,称为Protonorm,该层校准了行人建议的特征,同时考虑了人ID的长尾分布,使L2归一化的人表示具有歧视性。我们还提出了一种本地化感知的特征学习计划,该方案鼓励更好地调整的建议在学习歧视性表示方面做出更多的贡献。对标准人员搜索基准的实验结果和分析证明了Oimnet ++的有效性。
translated by 谷歌翻译
现代消费电子设备已为其主要功能采用了深度学习的情报服务。供应商最近开始在设备上执行情报服务,以在设备中保存个人数据,降低网络和云成本。我们发现了通过使用用户数据更新神经网络的情况,而无需将数据暴露在设备中:设备培训。例如,我们可能会添加一个新课程,我的狗Alpha用于机器人真空吸尘器,适应用户口音的语音识别,让文本到语音说话,好像用户会说话。但是,目标设备的资源限制遇到了重大困难。我们建议NNTrainer,这是一个轻巧的设备培训框架。我们描述了NNTrainer实施的神经网络的优化技术,这些技术与传统一起评估。评估表明,NNTrainer可以将内存消耗降低至1/28,而不会恶化准确性或训练时间,并有效地个性化了对设备上的应用程序。 NNTrainer是跨平台和实用的开源软件,该软件正在作者隶属关系中部署到数百万个设备。
translated by 谷歌翻译
我们提出了COGS,这是一种新颖的方法,用于图像的样式条件,素描驱动的合成。 COGS可以为给定的草图对象探索各种外观可能性,从而对输出的结构和外观进行了脱钩的控制。通过输入草图和基于变压器的草图和样式编码器的示例“样式”调理图像启用了对物体结构和外观的粗粒粒度控制,以生成离散的代码簿表示。我们将代码簿表示形式映射到度量空间中,从而在通过量化量化的GAN(VQGAN)解码器生成图像之前,可以对多个合成选项之间的选择和插值进行细粒度的控制和插值。我们的框架因此统一了搜索和综合任务,因为草图和样式对可以用于运行初始合成,该合成可以通过结合结合在搜索语料库中结合使用,以使图像更加与用户的意图更匹配。我们表明,我们的模型对新创建的Pseudosketches数据集的125个对象类培训,能够生产出多种语义内容和外观样式的范围。
translated by 谷歌翻译
联合分析是一种流行的实验设计,用于测量多维偏好。研究人员研究了在控制其他相关因素的同时如何影响决策。当前,存在两种方法学方法来分析联合实验的数据。第一个重点是估计每个因素的平均边际效应,同时平均其他因素。尽管这允许基于直接设计的估计,但结果严重取决于其他因素的分布以及相互作用效应的汇总方式。一种基于模型的替代方法可以计算各种兴趣,但要求研究人员正确指定模型,这是与许多因素和可能的相互作用的联合分析的挑战性任务。此外,在合并相互作用时,常用的逻辑回归即使具有适度的因素,统计特性也很差。我们提出了一种基于条件随机测试的新假设检验方法,以回答联合分析的最基本问题:考虑到其他因素,感兴趣的因素是否重要?我们的方法仅基于因素的随机化,因此没有假设。但是,它允许研究人员使用任何测试统计量,包括基于复杂的机器学习算法的统计量。结果,我们能够结合现有的基于设计和基于模型的方法的优势。我们通过对移民偏好和政治候选评估的联合分析来说明拟议的方法。我们还扩展了提出的方法来测试联合分析中常用的规律性假设。可以使用开源软件包来实施建议的方法。
translated by 谷歌翻译
人类通常通过利用关于他们正在交谈的人的主题和背景信息的先验知识来进行对话。然而,现有的会话代理和数据集不考虑此类综合信息,因此它们有一个限制生成知识和人格正确融合的话语。为解决此问题,我们介绍了一个呼叫进行定制对话(焦点)数据集,其中包括用户的角色和维基百科知识建立了自定义答案。为了评估预先训练的语言模型的信息和定制话语的能力,我们利用BART和GPT-2以及基于变压器的模型。我们评估了他们的生成能力,自动分数并对人类评估进行定性结果。我们仔细检查模型是否反映了我们提出的两个子任务,人物接地(PG)和知识接地(KG)的充分人物和知识。此外,我们表明我们的数据的话语通过接地质量评估来构建具有正确的知识和角色。
translated by 谷歌翻译